NVFP4-Reacción de aprendizaje reforzado cuantificado (RL) permite llevar a cabo el entrenamiento de un modelo de lenguaje máquina con 32 billones de parámetros en un solo H100—mientras mejora la exploración es-es 2025-10-17 · 2 min